中医(TCM)电子病历由于结构复杂多样与诊疗术语不规范的特点导致数据挖掘难度大、利用率低、难以抽取到有效信息。针对上述问题,提出基于LERT(Linguistically-motivated bidirectional Encoder Representation from Transformer)预训练模型与图卷积网络(GCN)并用异构图表示的中医电子病历分类模型TCM-GCN,用于改善中医电子病历特征有效表征的提取与分类。首先,利用LERT层词嵌入的方式将病历转换为句向量融入异构图中,以补全图结构缺失的病历整体语义特征;随后,为了缓解中医电子病历结构特点对特征提取产生的负面影响,异构图将关键词加入节点,使用BM25与点间互信息(PMI)算法构建图中“病历-关键词”“关键词-关键词”的边以表达病历的特征;最后,TCM-GCN依靠LERT-BM25-PMI构建的异构图对病历之间的特征关系进行聚合与抽取,完成病历分类的任务。在中医电子病历数据集上的实验结果表明,相较于次优的LERT,TCM-GCN加权平均后的准确率、召回率、F1值分别提升了2.24%、2.38%、2.32%,验证了算法在捕捉病历间隐含特征与中医电子病历分类工作上的有效性。